##
## Material para replica��o do Anexo 3 - Tabela 4
## T�tulo: G�nero, din�micas de poder intrapartid�rias e manterrupting no Legislativo
## Autores: Mauricio Izumi e Debora Thome
##

#diret�rio de trabalho
setwd("C:\\Users\\mauricioizumi\\Desktop\\notebook\\projetos\\discursos_sf\\topics\\")

#carrega fun��es
#concatena os termos
concat2 <- function(x){
	res <- ""
	for(i in 1:length(x)){
		res <- paste(res, x[i], sep = ", ")
	}
	res
}

#carrega pacotes
library(tidyverse)
library(data.table)

#carrega dados
ntopics <- 37
res_topics <- fread("topics37.csv.gz")
res_documents <- fread("documents37.csv.gz")

##############

#20 Stems mais comuns em cada t�pico
res_top_terms <- res_topics %>%
	group_by(topic) %>%
	top_n(20, beta) %>%
	arrange(topic, -beta)

terms <- NULL
for(i in 1:ntopics){
	temp <- subset(res_top_terms$term, res_top_terms$topic == i)
	terms[i] <- concat2(temp)
	terms[i] <- gsub("^, ", "", terms[i])
}
tab.terms <- data.frame(topic = c(1:ntopics), terms)
tab.terms

#porcentagem
p.docs <- res_documents %>%
	group_by(topic) %>%
	summarize(media = round(mean(gamma),2)) %>%
	arrange(desc(media))

#resultado
tab.terms %>%
	left_join(p.docs, by = "topic") %>%
	arrange(desc(media))
